batch 内负采样
示意图 #card
优点 #card
缺点是容易造成样本选择偏差(Sample Selection Bias,SSB)#card
这是因为,召回的正样本来自点击数据,而被点击的多是热门物料。
再加上一个Batch的大小有限,其中的热门物料就更加集中,与召回要被应用于整个物料库的数据环境差距较大。
换句话说,Batch内负采样所采集到的负样本都是Hard Negative(大多数用户都喜欢热门物料),缺少与用户兴趣毫不相关的Easy Negative。
示意图 #card
优点 #card
缺点是容易造成样本选择偏差(Sample Selection Bias,SSB)#card
这是因为,召回的正样本来自点击数据,而被点击的多是热门物料。
再加上一个Batch的大小有限,其中的热门物料就更加集中,与召回要被应用于整个物料库的数据环境差距较大。
换句话说,Batch内负采样所采集到的负样本都是Hard Negative(大多数用户都喜欢热门物料),缺少与用户兴趣毫不相关的Easy Negative。